查看原文
其他

不用写代码,30 秒抓取李笑来所有微博

明白 多元思维Hack 2020-10-06

学习金字塔中说道,“最有效的学习方法就是教别人”。

如果我们学到某些知识,能清楚的讲给别人听;
或者我们学会某些技能,可以教给别人使用;

那就说明,我们真的学会了。

互联网从业者,平时可能需要到微博、百度,知乎之类的网站,统计一些数据,做产品分析,用户喜好之类的分析。

但是有时候数据量比较大,手动统计太费时间,编程的话,门槛太高。

我给大家分享一个谷歌插件,webscraper,不用写代码,点点鼠标就可以抓取互联网上大量的数据。

这个插件,功能十分强大。

微信公众号,微博,百度,知乎、淘宝等等,只要是网页上可以显示的信息,都可以抓取到。

比如:咪蒙的公众号。我只用了30秒设置插件,然后出去喝了杯水,回来后,就看到数据结果:咪蒙的631篇文章标题。

由于数量太大,我只截取了最后一段。

真是太爽了,有没有。

想象一下,你打开一个网页,设置抓取格式,软件开始工作。你站起来,伸个懒腰,去外面倒一杯咖啡,回来后,需要的数据已经完整展现在你面前,多方便。

今天我来给大家分享这个软件——webscraper。

我们一步一步来,这次我们用李笑来微博作为例子。

一、下载安装

我们需要安装两个软件:

  • Chrome浏览器

  • webscraper插件

谷歌浏览器,大家根据自己的操作系统,windows或者mac,百度搜索,下载安装即可。

webscraper插件安装方法有两种:

1、直接在浏览器输入地址:http://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn

按照提示点击“安装”即可

2、从云盘下载webscraper安装包:

链接:https://pan.baidu.com/s/1bp0Iftd
密码: 11kt

下载好以后,
(1)Chrome 浏览器中输入:chrome://extensions/
(2)将下载好的文件拖动到此此页面
(3)根据提示点击:Add extensions;即完成安装。

以上,所需软件就已安装完毕。

二、打开软件

webscraper打开的入口有三种方法:
1、windows, linux:Ctrl+Shift+I 或者 f12, 或者 Tools / Developer tools
2、mac: Cmd+Opt+I, 或者 Tools / Developer tools
3、或者:右键——> 审查元素(适用于各个系统)

如上图,大家可以看到,红框标注的地方,出现了一个webscraper,没有安装之前是看不到的。

三、创建sitemap


如上图,我们点击“create sitemap”,进入下面👇图片;

如上图:

这个步骤需要输入 2 个信息:

  • Sitemap name:根据自己的实际情形自定义,比如抓的是张佳玮的文章,就取名  zhangjiawei。

  • Start URL:当前网址 (可直接从浏览器复制)。我们的话要抓取李笑来的微博,就填 https://weibo.com/bylixiaolai?refer_flag=1001030101_&ssl_rnd=1509760362.444&is_hot=1

最后点击  Create Sitemap 按钮即可

四、设置selector


如上图,点击“Add new selector”,进入下图;

如上图,我们按照标号来挨个看。

  1. 输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))

  2. 选择 “Type”,此处选择Element scroll down

  3. 点击 “Select” 进行元素抓取

  4. 上一步,点击“Select”后,会出现标号4出悬浮的工具框

  5. 点击第一个帖子

  6. 点击第二个帖子,完成后,点击悬浮工具框蓝色的“Done slecting!”

  7. 勾选 “Multiple”

  8. 输入 Delay(延迟时间,意思是等待多长时间后,再进行抓取,建议填 2000)

  9. 点击”Save Selector“

这步完成后,你会发现,sitemap下出现了一个叫content的选择器,如下图

点击上图的“content”,进入下图:

如上如,标号1,你会发现,这里多了一个content。
我们点击这里,标号2的地方,“Add new selector”,进入下图:

如上图:我们按照标号依次看:

  1. 输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))

  2. 选择 “Type”,此处选择Text

  3. 点击 “Select” 进行元素抓取

  4. 上一步,点击“Select”后,会出现标号4出悬浮的工具框

  5. 注意,当我们点击上一步4的select后,第一个帖子会变黄,我们点击这个黄色区域,它会变为红色。

  6. 点击”Save Selector“,其他的都不用设置。

以上,我们抓取李笑来微博的所有设置都已完成。

五、开始抓取

这步,我们开始正式抓取:


如上图,点击中间这列,点击下拉框中出现的“Scrape”,进入下图:

这几个都默认就行,直接点击标号4的“Start scraping”。

点击后,浏览器会弹出一个新窗口,进行抓取工作,不要关闭,等待他抓取完毕。

你会发现,弹出的窗口,会自动下拉鼠标,模拟人的手,自动化的将这页全部的帖子全部抓取下来。

完毕后,会出现抓取的数据,如下图:

六、导出到本地电脑


如上图,点击中间这列,点击下拉框中的“Export data as CSV”,会进入下图。

如上图,点击“Download now”,即可将数据下载到本地,以表格的形式存储。

文件可以用excel打开,mac下用numbers打开即可。

至此,李笑来的微博我们已经全部抓取完毕了。

怎么样,是不是很厉害。

其实这个软件的功能远不止此,大家操作起来吧。


这个工具有时候会受到一些程序员的鄙视,他们说自己会写代码,不屑于用这类工具。

写代码当然可以做到这点,但是,如果你不是专业写爬虫的程序员,你要写一个功能来抓取某些数据,就拿咪蒙公众号历史文章来说,我用这个插件30秒就成完成,你用30秒估计刚打开编辑器,连引用的库都还没写完吧。

所以别来抬杠。。。


如果这篇文章对你有帮助,可以扫码支持


或者:

把文章转到发朋友圈吧。算了,我知道你不愿意


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存